Worldbank Datensatz

Projektpartner: Elisabeth Lucke, Noemi Castelletti

Thomas Witzani, Wenxuan Liang, Nikolai German, Yanyu Zhao

Gruppe G

20. Januar 2025

Agenda

  1. Hintergrund
  1. Forschungsfragen
  1. Zusammenfassung und Diskussion

1. Hintergrund

Datenlage

  • 25 verschiedene Länder
  • 18 unterschiedliche Merkmale
  • jährliche Beobachtungen
  • Erste Beobachtung: Jahr 2000
  • Letzte Beobachtung: Jahr 2021

1. Hintergrund

Terminologie

  • BIP: Bruttoinlandsprodukt - alle innerhalb einer Zeiteinheit im Inland hergestellten Waren und Dienstleistungen (Inlandsprinzip)

  • NNE: Nettonationaleinkommen - BIP zzgl. Saldo der Primäreinkommen, abzüglich Abschreibungen

  • Erwerbspersonen: Erwerbstätige & Arbeitssuchende

  • Äquivalent reiner Alkohol: ein Liter reiner Alkohol entspricht 20 Litern Bier à 5% Alkoholgehalt

  • Spearman-(Rang-)Korrelation: misst Monotonie des Zusammenhangs

  • Trendlinien: die gezeigten Trendlinien wurden nach der Kleinsten-Quadrate Methode angepasst

1. Hintergrund

Betrachtete Merkmale

Merkmal Beschreibung
BIP pro Kopf BIP pro Einwohner gerechnet, inflationsbereinigt zu 2021
NNE pro Kopf NNE pro Einwohner gerechnet, inflationsbereinigt
Staatsverschuldung Staatsverschuldung als Vielfaches des BIP, in %
Landwirtschaftliche Nutzfläche Anteil der gesamten Landesfläche, der landwirtschaftlich genutzt wird
CO2 Emissionen pro Kopf CO2 Emissionen pro Einwohner gerechnet

1. Hintergrund

Betrachtete Merkmale

Merkmal Beschreibung
Zugang zu Elektrizität Anteil der Bevölkerung mit zuverlässiger Elektrizitätsversorgung
Bildungsquote Anteil der Erwerbspersonen mit grundlegender Schulbildung
HIV-Prävalenz Prävalenz von HIV unter der 15-49 Jährigen
Alkoholkonsum pro Kopf Gesamtkonsum pro Einwohner in Äquivalent reinen Alkohols der 15+ Jährigen
Prävalenz des Tabakkonsums Anteil der Tabakonsumenten unter den Erwachsenen

Agenda

  1. Hintergrund
  1. Forschungsfragen
  1. Zusammenfassung und Diskussion

2. Forschungsfragen

  • Elektrizität und Nationaleinkommen

  • Bildung

  • HIV-Prävalenz

  • Tabakkonsum

  • Landwirtschaft

Elektrizität und Nationaleinkommen

  • Korrelliert der Zugang zu Elektrizität mit dem NNE pro Kopf für verschiedene Länder?
    • Gibt es einen Zusammenhang mit der Landesgröße?
    • Gibt es einen Zusammenhang mit der Bevölkerungsgröße?

Daten fast vollständig

Lediglich für Afghanistan und das Vereingte Königreich fehlen einige Beobachtungen zum NNE.

Positiver Zusammenhang erkennbar

Zwischen der Elektrifizierung und dem NNE pro Kopf scheint ein positiver Zusammenhang zu existieren.

Auf allen Kontinenten

  • Der positive Zusammenhang ist auf allen Kontinenten vorhanden
  • Ein Großteil der Länder verfügt bereites über einen Elektrifizierungsgrad > 75%

Korrelation

  • Einige Länder verfügen im gesamten beobachteten Zeitraum über 100% Zugang zu Elektrizität
  • Für diese lässt sich kein Korrelationskoeffizient berechnen
Land durchschnittliche Elektrifizierung
Tschechien 100.0%
Finnland 100.0%
Neuseeland 100.0%
Katar 100.0%
Vereinigtes Königreich 100.0%
Vereinigte Staaten 100.0%
Kasachstan 99.9%
Aruba 99.3%

Korrelationskoeffizient überwiegend positiv

Elektrizität und Nationaleinkommen

  • Korrelliert der Zugang zu Elektrizität mit dem NNE pro Kopf für verschiedene Länder?
    • Gibt es einen Zusammenhang mit der Landesgröße?

    • Gibt es einen Zusammenhang mit der Bevölkerungsgröße?

Landesgröße hat keinen Einfluss

Die Stärke und Richtung der Rangkorrelation zeigt keinen Zusammenhang zur Landesgröße

Elektrizität und Nationaleinkommen

  • Korrelliert der Zugang zu Elektrizität mit dem NNE pro Kopf für verschiedene Länder?
    • Gibt es einen Zusammenhang mit der Landesgröße?
    • Gibt es einen Zusammenhang mit der Bevölkerungsgröße?

Bevölkerungsgröße hat wenig Einfluss

Die Bevölkerungsgröße zeigt einen kleinen bis nicht vorhandenen positiven Zusammenhang mit der Stärke und Richtung der Rangkorrelation

2. Forschungsfragen

  • Elektrizität und Nationaleinkommen

  • Bildung

  • HIV-Prävalenz

  • Tabakkonsum

  • Landwirtschaft

Bildung

  • Haben Länder mit hoher Staatsverschuldung eine geringe Bildungsquote?
  • Sind Länder mit hoher Bildungsquote in der Lage, ein niedriges Schüler-Lehrer Verhältnis zu halten?
    • Welchen Einfluss könnte dies auf die Qualität der Bildung haben?

Wenige komplette Paare

Es gibt lediglich eine geringe Anzahl an kompletten Paaren von Staatsverschuldung und Bildungsquote bezüglich Land und Jahr

Kein einheitlicher Trend

Betrachtet man Staatsverschuldung und Bildungsquote je Land, zeichnet sich kein einheitlicher Trend ab.

Korrelationskoeffizient uneinheitlich

Der Korrelationskoeffizient der einzelnen Länder zeigt ein uneinheitliches Bild hinsichtlich Richtung und Stärke.

Kein globaler Trend

  • Die durchschnittlichen Werte für Staatsverschuldung und Bildungsquote haben einen leicht positiven Zusammenhang
  • Durch Entfernen des Ausreißers (Vereingtes Königreich) verschwindet dieser Effekt

Bildung

  • Haben Länder mit hoher Staatsverschuldung eine geringe Bildungsquote?
  • Sind Länder mit hoher Bildungsquote in der Lage, ein niedriges Schüler-Lehrer Verhältnis zu halten?
    • Welchen Einfluss könnte dies auf die Qualität der Bildung haben?

Kaum komplette Paare

Für Bildungsquote und Schüler-Lehrer-Verhältnis gibt es nur sehr wenige komplette Paare im Datensatz.

Kein Zusammenhang erkennbar

Zwischen einer hohen Bildungsquote und niedrigen Schüler-Lehrer-Verhältnissen gibt es in den betrachteten Daten keine Beziehung.

Schüler-Lehrer-Verhältnis fluktuiert

  • Das Verhältnis von Schülern je Lehrer fluktuiert mitunter stark
  • Auch für die Länder mit den durchschnittlich höchsten Bildungsquote
  • Ein Rückschluss auf die Bildungsqualität ist nicht möglich

2. Forschungsfragen

  • Elektrizität und Nationaleinkommen

  • Bildung

  • HIV-Prävalenz

  • Tabakkonsum

  • Landwirtschaft

HIV-Prävalenz

  • Gibt es eine Beziehung zwischen HIV-Prävalenz und Alkoholkonsum pro Kopf?
  • Haben Länder mit höherer Bildungsquote eine niedrigere HIV-Prävalenz?

Daten unvollständig

  • In den Daten fehlen Beobachtungspaare für sieben Länder
  • Beobachtungen für das Jahr 2021 fehlen komplett

Positiver Zusammenhang erkennbar

Vier hauptsächlich muslimisch geprägte Länder beeinflussen die Trendlinie maßgeblich.

Trend zwiegespalten

  • Trend auch auf Kontinent-Ebene vorhanden
  • keine Fortsetzung auf Ebene der Länder

Korrelation auf Länderebene uneinheitlich

HIV-Prävalenz

  • Gibt es eine Beziehung zwischen HIV-Prävalenz und Alkoholkonsum?
  • Haben Länder mit höherer Bildungsquote eine niedrigere HIV-Prävalenz?

Zusammenhang besteht nicht

  • Länder mit höherer durchschnittlicher Bildungsquote haben keine niedrigere HIV-Prävalenz.
  • In den betrachteten Daten scheint es sogar gegenteilig zu sein.

2. Forschungsfragen

  • Elektrizität und Nationaleinkommen

  • Bildung

  • HIV-Prävalenz

  • Tabakkonsum

  • Landwirtschaft

Tabakkonsum

  • Wie verhält sich das BIP pro Kopf zur Prävalenz des Tabakkonsums?

Daten nur in 7 Jahren vollständig

  • Beobachtungen zur Prävalenz des Tabakkonsums für Aruba fehlen durchgängig
  • für die übrigen Länder liegen sie vor 2018 nur alle fünf Jahre vor

Trend auf allen Kontinenten

Auf allen Kontinenten korrelieren höhere BIPs mit niedrigerer Prävalenz des Tabakkonsums

Kein Trend bei ärmeren Volkswirtschaften

  • Für die Gesamtheit der ärmeren Volkswirtschaften verschwindet der Trend
  • Auf Länderebene existiert der Trend weiter

BIP pro Kopf korreliert negativ mit Tabakkonsum

Bei den reicheren Volkswirtschaften existiert der Trend sowohl übergreifend, also auch auf Ebene der Nationen.

2. Forschungsfragen

  • Elektrizität und Nationaleinkommen

  • Bildung

  • HIV-Prävalenz

  • Tabakkonsum

  • Landwirtschaft

Landwirtschaft

  • Gibt es einen Zusammenhang zwischen landwirtschaftlicher Nutzfläche und CO2 Emissionen pro Kopf je Land?
    • Hat die Gesamtfläche einen Einfluss?

CO2-Daten zeigen Einbrüche

Die CO2 Daten weisen für mehrere Länder Einbrüche auf, welche unplausibel erscheinen

Kein mehrheitlicher Trend

  • Die jeweiligen Daten der einzelnen Länder zeigen keinen mehrheitlichen Trend
  • Katar sticht mit sehr hohen CO2 Emissionen pro Kopf, bei sehr geringer landwirtschaftlicher Nutzfläche heraus

Korrelationskoeffizient uneinheitlich

Die Korrelation von landwirtschaftlicher Nutzfläche und CO2 Emissionen pro Kopf variiert in Stärke und Richtung.

Kein globaler Trend

Betrachtet man die beiden Faktoren jeweils im Durchschnitt, zeichnet sich kein Trend ab

Landwirtschaft

  • Gibt es einen Zusammenhang zwischen landwirtschaftlicher Nutzfläche und CO2 Emissionen pro Kopf je Land?
    • Hat die Gesamtfläche einen Einfluss?

Gesamtfläche hat keinen Einfluss

In den vorliegenden Daten liegt kein Zusammenhang zwischen Landesgröße und Korrelationskoeffizient1 vor.

Agenda

  1. Hintergrund
  1. Forschungsfragen
  1. Zusammenfassung und Diskussion

3. Zusammenfassung und Diskussion

Zusammenfassung

  • Zugang zu Elektrizität korreliert im Datensatz stark mit dem Nettonationaleinkommen pro Kopf
  • Eine hohe Staatsverschuldung hat in den vorhandenen Daten keinen Zusammenhang mit einer geringen Bildungsquote
  • Ein Zusammenhang zwischen Alkoholkonsum und HIV-Prävalenz gibt es in den Daten nicht
  • Im Datensatz existiert ein negativer Zusammenhang zwischen Tabakkonsum und BIP pro Kopf
  • Zwischen dem Anteil landwirtschaftlich genutzter Fläche den CO2 Emissionen pro Kopf gibt es keinen Zusammenhang in den vorliegenden Daten

3. Zusammenfassung und Diskussion

Diskussion

  • Wie sind die vergleichsweise niedrigen Bildungsquoten der Vereinigten Staaten und Neuseelands zu interpretieren?
  • Ist der negative Zusammenhang zwischen Tabakkonsum und BIP pro Kopf auf die Anti-Rauch-Gesetze der letzten Jahrzehnte zurückzuführen?
  • Sind die CO2-Daten plausibel?

Appendix

Spearman-(Rang-)Korrelation

Definition: \[r^{sp}_{XY} = \frac{\sum{(rg(X_i) - \bar{rg}_X)(rg(Y_i) - \bar{rg}_Y)}}{(\sum{(rg(X_i) - \bar{rg}_X)^2}\sum{(rg(Y_i) - \bar{rg}_Y)^2})^\frac{1}{2}} \in [-1, 1]\]

Volkswirtschaftliche Gesamtrechnung

Trendlinien

Parameterschätzung

  • Die Trendlinien in den Graphen wurden durch (einfache) Lineare Regression erzeugt

  • Die Strukturgleichung ist gegeben durch: \(y_i = \beta_0 + \beta_1 \cdot x_i + \epsilon_i\), wobei \(\epsilon_i \sim \mathcal{N}(0, \sigma^2)\) ist

  • Wir schätzen \(\mathbf{\beta} = (\beta_0, \beta_1)^\top\) durch minimieren des Kleinste-Quadrate (KQ) Problems zu \[\mathbf{\hat{\beta}} = \operatorname*{arg\,min}_\mathbf{\beta} \sum_{i=1}^n (y_i - \beta_0 + x_i\,\beta_1)^2\]

  • Die Regressionsgerade ist dann gegeben durch \(\mathbf{\hat{y}} = \hat{\beta_0} + \mathbf{x}\,\hat{\beta_1}\)

Trendlinien

Konfidenzintervall

  • Wir schätzen: \(\hat{\sigma}^2 = \frac{1}{n - 2} \sum_{i=1}^n\hat{\epsilon}_i^2 = \frac{1}{n - 2} \sum_{i=1}^n(y_i - \hat{\beta_0} - \hat{\beta_1}\cdot x_i)^2\)

  • Weiterhin gilt: \(\frac{y_i - \hat{y}_i}{\sigma_{y_i}} \sim t_{n-2}\), mit \(\sigma_{y_i}^2 = \hat{\sigma}^2 \Biggl[\frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{i = 1}^n (x_i - \bar{x}^2)}\Biggr]\)

  • Das Konfidenzintervall von \(\hat{y}_i\) zum Niveau \(\alpha\) ist dann: \(\Biggl[\hat{y}_i - \hat{\sigma}_{y_i} \cdot t_{1-\frac{\alpha}{2}}(n-2), \hat{y}_i + \hat{\sigma}_{y_i} \cdot t_{1-\frac{\alpha}{2}}(n-2)\Biggr]\)

  • Hierbei ist \(t_{1-\frac{\alpha}{2}}(n-2)\) das \((1-\frac{\alpha}{2})\)-Quantil der \(t\)-Verteilung mit \(n-2\) Freiheitsgraden

Aggregierung

  • Bei unvollständigen Daten haben wir uns in der Regel für den Mittelwert entschieden
  • andere Formen der Aggregierung können andere Ergebnisse liefern